4 research outputs found

    Multimodal perception for autonomous driving

    Get PDF
    Mención Internacional en el título de doctorAutonomous driving is set to play an important role among intelligent transportation systems in the coming decades. The advantages of its large-scale implementation –reduced accidents, shorter commuting times, or higher fuel efficiency– have made its development a priority for academia and industry. However, there is still a long way to go to achieve full self-driving vehicles, capable of dealing with any scenario without human intervention. To this end, advances in control, navigation and, especially, environment perception technologies are yet required. In particular, the detection of other road users that may interfere with the vehicle’s trajectory is a key element, since it allows to model the current traffic situation and, thus, to make decisions accordingly. The objective of this thesis is to provide solutions to some of the main challenges of on-board perception systems, such as extrinsic calibration of sensors, object detection, and deployment on real platforms. First, a calibration method for obtaining the relative transformation between pairs of sensors is introduced, eliminating the complex manual adjustment of these parameters. The algorithm makes use of an original calibration pattern and supports LiDARs, and monocular and stereo cameras. Second, different deep learning models for 3D object detection using LiDAR data in its bird’s eye view projection are presented. Through a novel encoding, the use of architectures tailored to image detection is proposed to process the 3D information of point clouds in real time. Furthermore, the effectiveness of using this projection together with image features is analyzed. Finally, a method to mitigate the accuracy drop of LiDARbased detection networks when deployed in ad-hoc configurations is introduced. For this purpose, the simulation of virtual signals mimicking the specifications of the desired real device is used to generate new annotated datasets that can be used to train the models. The performance of the proposed methods is evaluated against other existing alternatives using reference benchmarks in the field of computer vision (KITTI and nuScenes) and through experiments in open traffic with an automated vehicle. The results obtained demonstrate the relevance of the presented work and its suitability for commercial use.La conducción autónoma está llamada a jugar un papel importante en los sistemas inteligentes de transporte de las próximas décadas. Las ventajas de su implementación a larga escala –disminución de accidentes, reducción del tiempo de trayecto, u optimización del consumo– han convertido su desarrollo en una prioridad para la academia y la industria. Sin embargo, todavía hay un largo camino por delante hasta alcanzar una automatización total, capaz de enfrentarse a cualquier escenario sin intervención humana. Para ello, aún se requieren avances en las tecnologías de control, navegación y, especialmente, percepción del entorno. Concretamente, la detección de otros usuarios de la carretera que puedan interferir en la trayectoria del vehículo es una pieza fundamental para conseguirlo, puesto que permite modelar el estado actual del tráfico y tomar decisiones en consecuencia. El objetivo de esta tesis es aportar soluciones a algunos de los principales retos de los sistemas de percepción embarcados, como la calibración extrínseca de los sensores, la detección de objetos, y su despliegue en plataformas reales. En primer lugar, se introduce un método para la obtención de la transformación relativa entre pares de sensores, eliminando el complejo ajuste manual de estos parámetros. El algoritmo hace uso de un patrón de calibración propio y da soporte a cámaras monoculares, estéreo, y LiDAR. En segundo lugar, se presentan diferentes modelos de aprendizaje profundo para la detección de objectos en 3D utilizando datos de escáneres LiDAR en su proyección en vista de pájaro. A través de una nueva codificación, se propone la utilización de arquitecturas de detección en imagen para procesar en tiempo real la información tridimensional de las nubes de puntos. Además, se analiza la efectividad del uso de esta proyección junto con características procedentes de imágenes. Por último, se introduce un método para mitigar la pérdida de precisión de las redes de detección basadas en LiDAR cuando son desplegadas en configuraciones ad-hoc. Para ello, se plantea la simulación de señales virtuales con las características del modelo real que se quiere utilizar, generando así nuevos conjuntos anotados para entrenar los modelos. El rendimiento de los métodos propuestos es evaluado frente a otras alternativas existentes haciendo uso de bases de datos de referencia en el campo de la visión por computador (KITTI y nuScenes), y mediante experimentos en tráfico abierto empleando un vehículo automatizado. Los resultados obtenidos demuestran la relevancia de los trabajos presentados y su viabilidad para un uso comercial.Programa de Doctorado en Ingeniería Eléctrica, Electrónica y Automática por la Universidad Carlos III de MadridPresidente: Jesús García Herrero.- Secretario: Ignacio Parra Alonso.- Vocal: Gustavo Adolfo Peláez Coronad

    Research, development and evaluation of a practical model for sentiment analysis

    Get PDF
    Sentiment Analysis is the task of extracting subjective information from input sources coming from a speaker or writer. Usually it refers to identifying whether a text holds a positive or negative polarity. The main approaches to carry out Sentiment Analysis are lexicon or dictionary-based methods and machine learning schemes. Lexicon-based models make use of a prede ned set of words, where each of the words composing the set has an associated polarity. Document polarity will depend on the feature selection method, and how their scores are combined. Machine-learning approaches usually rely on supervised classifiers. Although classifiers offer adaptability for specific contexts, they need to be trained with huge amounts of labelled data which may not be available, specially for upcoming topics. This project, contrary to most scientific researches over this field, aims to go further in emotion detection and puts its efforts on identifying the actual sentiment of documents, instead of focusing on whether it may have a positive or negative connotation. The set of sentiments used for this approach have been extracted from Plutchik's wheel of emotions, which defines eight basic bipolar sentiments and another eight advanced emotions composed of two basic ones. Moreover, in this project we have created a new scheme for SA combining a lexicon-based model for getting term emotions and a statistical approach to identify the most relevant topics in the document which are the targets of the sentiments. By taking this approach we have tried to overcome the disadvantages of simple Bag-of-words models that do not make any distinctions between parts of speech (POS) and weight all words commonly using the tf-idf scheme which leads to overweight most frequently used words. Furthermore, in order to improve knowledge, this projects presents a heuristic learning method that allows improving initial knowledge by converging to human-like sensitivity. In order to test proposed scheme's performance, an Android application for mobile devices has been developed. This app allows users taking photos and introducing descriptions which are processed and classi ed with emotions. Classi cation that may be corrected by the user so that system performance statistics can be extracted.El Análisis de Sentimientos consiste en extraer información subjetiva de lenguaje escrito u oral. Habitualmente se basa en identificar si un texto es positivo o negativo, es decir, extraer su polaridad. Las principales formas de llevar a cabo el Análisis de Sentimientos son los métodos basados en dictionarios y en aprendizaje automático. Los modelos basados en léxicos hacen uso de un conjunto predefinido de palabras que tienen asociada una polaridad. La polaridad del texto dependerá los elementos analizados y la forma en la que se combinan sus valores. Las aproximaciones basadas en aprendizaje automático, por el contrario, normalmente se apoyan en clasificadores supervisados. A pesar de que los claificadores ofrecen adaptabilidad para contextos muy específicos, necesitan gran cantidad de datos para ser entrenados no siempre disponibles, como por ejemplo en temas muy novedosos. Este proyecto, al contrario que la mayoría de investigaciones en este campo, intenta ir m as allá en la detección de emociones y pretende identificar los sentimientos del texto en vez de centrarse en su polaridad. El conjunto de sentimientos usados para este proyecto esrá basado en la Rueda de las Emociones de Plutchik, que define ocho sentimientos básicos y ocho complejos formados por dos básicos. Además, en este proyecto se ha creado un nuevo modelo de AS combinando léxicos para extraer las emociones de las palabras con otro estadístico que trata de identificar los temas más importantes del texto. De esta forma, se ha intentado superar las desventajas de los modelos Bag-of-words que no diferencian entre clases de palabras y ponderan todas las palabras usando el esquema tf-idf, que conlleva sobreponderar las palabras más usadas. Asimismo, para mejorar el conocimiento del proyecto, se ha implementado un método de aprendizaje heurístico que permite mejorar el conocimiento inicial para converger con la sensibilidad real de los humanos. Para evaluar el rendimiento del modelo propuesto, una aplicación Android para móviles ha sido desarrollada. Esta app permite a los usuarios tomar fotos e introducir descripciones que son procesadas y clasificadas por emociones. Clasificación que puede ser corregida por el usuario permitiendo así extraer estadísticas del rendimiento del sistema.Ingeniería Informátic

    BirdNet+: two-stage 3D object detection in LiDAR through a sparsity-invariant bird's eye view

    Get PDF
    Autonomous navigation relies upon an accurate understanding of the elements in the surroundings. Among the different on-board perception tasks, 3D object detection allows the identification of dynamic objects that cannot be registered by maps, being key for safe navigation. Thus, it often requires the use of LiDAR data, which is able to faithfully represent the scene geometry. However, although raw laser point clouds contain rich features to perform object detection, more compact representations such as the bird's eye view (BEV) projection are usually preferred in order to meet the time requirements of the control loop. This paper presents an end-to-end object detection network based on the well-known Faster R-CNN architecture that uses BEV images as input to produce the final 3D boxes. Our regression branches can infer not only the axis-aligned bounding boxes but also the rotation angle, height, and elevation of the objects in the scene. The proposed network provides state-of-the-art results for car, pedestrian, and cyclist detection with a single forward pass when evaluated on the KITTI 3D Object Detection Benchmark, with an accuracy that exceeds 64% mAP 3D for the Moderate difficulty. Further experiments on the challenging nuScenes dataset show the generalizability of both the method and the proposed BEV representation against different LiDAR devices and across a wider set of object categories by being able to reach more than 30% mAP with a single LiDAR sweep and almost 40% mAP with the usual 10-sweep accumulation.This work was supported in part by the Government of Madrid (Comunidad de Madrid) under the Multiannual Agreement with the University Carlos III of Madrid (UC3M) in the line of "Fostering Young Doctors Research"(PEAVAUTO-CM-UC3M), and in part by the Context of the V Regional Programme of Research and Technological Innovation (PRICIT)

    Autocalibración de parámetros extrínsecos de sistemas estéreo para aplicaciones de tráfico

    Get PDF
    Comunicación presentada en: XXXVII Jornadas de Automática, Madrid, 6 a 8 de septiembre de 2016En este artículo se presenta un método de autocalibración de los parámetros extrínsecos de un sistema estéreo en aplicaciones de tráfico. Dicho método se basa en determinar la geometría de la calzada delante del veh´ıculo. Esta posición relativa varía considerablemente mientras el vehículo circula, por tanto, resulta de gran interés poder estimarla para su aplicación en múltiples aplicaciones basadas en visión por computador, tales como: sistemas avanzados de ayuda a la conducción, vehículos autónomos o robots. Estos continuos cambios en la posición del sistema estéreo se traducen en variaciones en los valores de los parámetros extrínsecos (altura, ángulo de cabeceo y ángulo de alabeo). La validación del método de autocalibración es realizada mediante el empleo de un algoritmo de odometría visual, donde se evalúa la mejora en los resultados que supone conocer en todo momento el valor de los parámetros extrínsecos del sistema estéreo.Este trabajo ha sido parcialmente financiado por el Gobierno de España a través de los proyectos Cycit (TRA2013-48314-C3-1-R y TRA2015-63708-R) y por la Comunidad de Madrid a través del proyecto SEGVAUTO-TRIE S (S2013/MIT-2713)
    corecore